神经网络的越来越大的规模及其越来越多的应用空间对更高的能量和记忆有效的人工智能特定硬件产生了需求。 venues为了缓解主要问题,von neumann瓶颈,包括内存和近记忆架构,以及算法方法。在这里,我们利用磁隧道结(MTJ)的低功耗和固有的二进制操作来展示基于MTJ的无源阵列的神经网络硬件推断。通常,由于设备到装置的变化,写入误差,寄生电阻和非前沿,在性能下将训练的网络模型转移到推动的硬件。为了量化这些硬件现实的效果,我们将300个唯一重量矩阵解决方案的23个唯一的重量矩阵解决方案进行分类,以分类葡萄酒数据集,用于分类准确性和写真保真度。尽管设备不完美,我们可以实现高达95.3%的软件等效精度,并在15 x 15 MTJ阵列中正确调整具有一系列设备尺寸的阵列。此调谐过程的成功表明,需要新的指标来表征混合信号硬件中再现的网络的性能和质量。
translated by 谷歌翻译
基于旋转扭矩振荡器的复合值Hopfield网络模拟可以恢复相位编码的图像。存储器增强逆变器的序列提供可调谐延迟元件,通过相位转换振荡器的振荡输出来实现复合权重的可调延迟元件。伪逆培训足以存储在一组192个振荡器中,至少代表16 $ \倍数为12个像素图像。恢复图像所需的能量取决于所需的错误级别。对于这里考虑的振荡器和电路,来自理想图像的5%均方方偏差需要大约5 00美元$ S并消耗大约130 NJ。模拟显示,当振荡器的谐振频率可以调整为具有小于10 ^ {-3} $的分数扩展时,网络功能良好,具体取决于反馈的强度。
translated by 谷歌翻译
大型语言模型,例如OpenAI的法典和DeepMind的字母,可以生成代码来解决以自然语言表达的各种问题。这项技术已经在至少一项广泛使用的编程编辑器扩展程序中进行了商业化:Github Copilot。在本文中,我们探讨了具有大型语言模型(LLM辅助编程)的编程与程序员协助的先前概念化相似,并且与众不同。我们借鉴了公开可用的经验报告,有关LLM辅助编程以及先前的可用性和设计研究。我们发现,尽管LLM辅助编程通过搜索和重用分享了一些编译,配对编程和编程的属性,但技术可能性和实践经验都存在根本差异。因此,应该将LLM辅助编程视为具有自己独特的属性和挑战的新方法。最后,我们借鉴了用户研究的观察结果,在该观察中,非专家最终用户程序员使用LLM辅助工具来求解电子表格中的数据任务。我们讨论可能出现的问题,并在将大型语言模型应用于最终用户编程时,尤其是对于几乎没有编程专业知识的用户。
translated by 谷歌翻译
我们提出了一项探索性定性研究,以了解作家如何与下一页建议相互作用。尽管对建议系统对写作的影响进行了一些定量研究,但几乎没有定性的工作来理解作家如何与建议系统互动及其如何影响他们的写作过程 - 特别是针对非本地但英国作家的。我们进行了一项研究,要求业余作家分别写两部电影评论,一本没有建议。我们发现作家以各种复杂的方式与下一页建议互动 - 作家能够抽象建议的多个部分并将其纳入他们的写作中 - 即使他们不同意整个建议。建议系统对写作过程也有各种影响 - 以独特的方式为写作过程的不同方面做出了影响。我们提出了一种用于与GPT-2写作的作家 - 探索互动模型,用于电影评论写作任务,然后是该模型可用于未来研究的方式,并概述了研究和设计的机会。
translated by 谷歌翻译
深度强化学习方法是最近在计算机视觉和机器人技术社区中进行视觉导航任务的流行方法。在大多数情况下,奖励函数具有二进制结构,即当代理达到目标状态时,将提供大量的积极奖励,并为环境中的每个其他状态分配负面的刑罚。这样的稀疏信号使学习过程具有挑战性,特别是在大环境中,需要采取大量顺序动作才能达到目标。我们引入了奖励成型机制,该机制逐渐根据目标距离逐渐调整奖励信号。使用AI2进行的详细实验 - 该模拟环境证明了对象目标导航任务所提出的方法的功效。
translated by 谷歌翻译
以人为中心的可解释人工智能(HCXAI)社区提出了将解释过程作为人与机器之间的对话进行构建。在该立场论文中,我们为基于文本的对话剂建立了Desiderata,能够使用自然语言进行交互方式解释神经模型的行为。从自然语言处理(NLP)研究的角度来看,我们设计了这种调解人的蓝图,以进行情感分析的任务,并评估当前的研究在基于对话的解释方面走上了多远。
translated by 谷歌翻译
在使用不同的培训环境展示时,获得机器学习任务的可推广解决方案的一种方法是找到数据的\ textit {不变表示}。这些是协变量的表示形式,以至于表示形式的最佳模型在培训环境之间是不变的。在线性结构方程模型(SEMS)的背景下,不变表示可能使我们能够以分布范围的保证(即SEM中的干预措施都有牢固的模型学习模型。为了解决{\ em有限示例}设置中不变的表示问题,我们考虑$ \ epsilon $ approximate不变性的概念。我们研究以下问题:如果表示给定数量的培训干预措施大致相当不变,那么在更大的看不见的SEMS集合中,它是否会继续大致不变?这种较大的SEM集合是通过参数化的干预措施来生成的。受PAC学习的启发,我们获得了有限样本的分布概括,保证了近似不变性,该概述\ textit {概率}在没有忠实假设的线性SEMS家族上。我们的结果表明,当干预站点仅限于恒定大小的子集的恒定限制节点的恒定子集时,界限不会在环境维度上扩展。我们还展示了如何将结果扩展到结合潜在变量的线性间接观察模型。
translated by 谷歌翻译
在神经网络中,通过激活功能引入非线性。一个常用的激活功能是整流线性单元(Relu)。 Relu是一个激烈的激活,但有缺陷。像嗖嗖声和莫什这样的最先进的功能现在,他们的注意力是一个更好的选择,因为它们打击了其他激活功能呈现的许多缺陷。 COLU是一个类似于闪光和MISH的激活函数。它定义为f(x)= x /(1-xe ^ - (x + e ^ x))。它是光滑的,不断微分,未呈现的上面,偏向于下方,不饱和和非单调。基于用具有不同激活功能的COLU完成的实验,观察到COLU通常比更深的神经网络上的其他功能更好地执行。在逐步越来越多的卷积层上训练Mnist上的不同神经网络,COLU保留了更多层的最高精度。在带有8个卷积层的较小网络上,COLU具有最高的平均准确性,紧随其后的是Relu。在Sfirfure-Mnist培训的VGG-13上,COLU比MISH高4.20%,比RELU高3.31%。在CIFAR-10培训的Resnet-9上,Colu比速度高0.05%,精度高出0.09%,比Relu高0.29%。观察到,激活函数可以基于包括层数,层数,参数类型,参数数量,参数数,学习速率,优化器等的不同因素来表现得好。可以在这些因素和激活功能上进行进一步的研究更优化的激活功能和更多关于他们行为的知识。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP),其中状态对应于随机生成奖励的因果图。在这个设置中,学习者的目标是通过在每个州的变量上介绍,识别导致高奖励的原子干预措施。概括最近的因果强盗框架,目前的工作开发(简单)后悔最小化对两级因果MDP的保证,每个状态下并行因果图。我们提出了一种算法,实现了一个依赖于困境的实例。我们算法的一个关键特征是它利用凸优化来解决探索问题。我们识别我们遗憾保证基本紧张的课程,实验验证我们的理论结果。
translated by 谷歌翻译
强大的彩票票证假设有希望,即修剪随机初始化的深神经网络可以为具有随机梯度下降的深度学习提供计算有效的替代方案。但是,常见的参数初始化方案和存在证明集中在偏差为零的网络上,因此预言了修剪的潜在通用近似属性。为了填补这一空白,我们将多个初始化方案和存在证明扩展到非零偏差,包括Relu激活函数的显式“外观线性”方法。这些不仅可以实现真正的正交参数初始化,还可以减少潜在的修剪错误。在标准基准数据的实验中,我们进一步强调了非零偏置初始化方案的实际好处,并为最先进的强彩票修剪提供了理论上灵感的扩展。
translated by 谷歌翻译